#attention sink

3个月前

在 transformer 模型里，注意力权重很容易集中到序列开头的几个 token 上，尤其是第一个，这个现象叫做attention sink。之前很多论文的解释是，模型这么做是为了作为锚点。但这篇文章提出了一个另外的观点：这根本不是模型学会的策略，而是 causal transformer 的数学结构天然就会导致的结果。因为一旦引入 causal mask，attention 就相当于在一个有向无环图（DAG）上传播。信息和梯度都会自然往图的汇点（sink）聚集，而在这种结构下，汇点就是前几个 token。于是 attention mass 就越来越往前集中。

#transformer模型 #注意力权重 #attention sink #causal mask #有向无环图